## [1] 1599 13
## [1] "X" "fixed.acidity" "volatile.acidity"
## [4] "citric.acid" "residual.sugar" "chlorides"
## [7] "free.sulfur.dioxide" "total.sulfur.dioxide" "density"
## [10] "pH" "sulphates" "alcohol"
## [13] "quality"
## X fixed.acidity volatile.acidity citric.acid
## Min. : 1.0 Min. : 4.60 Min. :0.1200 Min. :0.000
## 1st Qu.: 400.5 1st Qu.: 7.10 1st Qu.:0.3900 1st Qu.:0.090
## Median : 800.0 Median : 7.90 Median :0.5200 Median :0.260
## Mean : 800.0 Mean : 8.32 Mean :0.5278 Mean :0.271
## 3rd Qu.:1199.5 3rd Qu.: 9.20 3rd Qu.:0.6400 3rd Qu.:0.420
## Max. :1599.0 Max. :15.90 Max. :1.5800 Max. :1.000
## residual.sugar chlorides free.sulfur.dioxide
## Min. : 0.900 Min. :0.01200 Min. : 1.00
## 1st Qu.: 1.900 1st Qu.:0.07000 1st Qu.: 7.00
## Median : 2.200 Median :0.07900 Median :14.00
## Mean : 2.539 Mean :0.08747 Mean :15.87
## 3rd Qu.: 2.600 3rd Qu.:0.09000 3rd Qu.:21.00
## Max. :15.500 Max. :0.61100 Max. :72.00
## total.sulfur.dioxide density pH sulphates
## Min. : 6.00 Min. :0.9901 Min. :2.740 Min. :0.3300
## 1st Qu.: 22.00 1st Qu.:0.9956 1st Qu.:3.210 1st Qu.:0.5500
## Median : 38.00 Median :0.9968 Median :3.310 Median :0.6200
## Mean : 46.47 Mean :0.9967 Mean :3.311 Mean :0.6581
## 3rd Qu.: 62.00 3rd Qu.:0.9978 3rd Qu.:3.400 3rd Qu.:0.7300
## Max. :289.00 Max. :1.0037 Max. :4.010 Max. :2.0000
## alcohol quality
## Min. : 8.40 Min. :3.000
## 1st Qu.: 9.50 1st Qu.:5.000
## Median :10.20 Median :6.000
## Mean :10.42 Mean :5.636
## 3rd Qu.:11.10 3rd Qu.:6.000
## Max. :14.90 Max. :8.000
## 'data.frame': 1599 obs. of 13 variables:
## $ X : int 1 2 3 4 5 6 7 8 9 10 ...
## $ fixed.acidity : num 7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
## $ volatile.acidity : num 0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
## $ citric.acid : num 0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
## $ residual.sugar : num 1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
## $ chlorides : num 0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
## $ free.sulfur.dioxide : num 11 25 15 17 11 13 15 15 9 17 ...
## $ total.sulfur.dioxide: num 34 67 54 60 34 40 59 21 18 102 ...
## $ density : num 0.998 0.997 0.997 0.998 0.998 ...
## $ pH : num 3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
## $ sulphates : num 0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
## $ alcohol : num 9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
## $ quality : int 5 5 5 6 5 5 5 7 7 5 ...
##
## 3 4 5 6 7 8
## 10 53 681 638 199 18
O data set analisado possui 1.599 vinhos. As notas dos especialistas variaram entre 0 (muito ruim) e 10 (excelente. Não há vinhos com notas 0, 1, 2, 9 e 10. Os extremos da faixa, nível 3 e 8, possuem as menores quantidades no conjunto, totalizando 10 e 18, respecitvamente. A maior quantidade de vinhos no data set são de qualidade 5 e 6, com 681 e 638, respectivamente.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.60 7.10 7.90 8.32 9.20 15.90
Variável “fixed.acidity”, contínua, com mínimo de 4,60 e máximo de 15,90. Originalmente com leve tendência à direita em sua distribuição. A tranformação logarítimica resultou numa distribuição mais equilibrada.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1200 0.3900 0.5200 0.5278 0.6400 1.5800
Variável “volatile.acidity”, contínua, com mínimo de 0,12 e máximo de 1,58. Como a anterior, possui desvio à direita. A tranformação logarítimica resultou numa distribuição mais equilibrada.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 0.090 0.260 0.271 0.420 1.000
Variável “citric.acid”, contínua, com mínimo de 0 e máximo de 1. Não apresenta uma distribuição normal. A transformação logarítimica não apresentou resultado satisfatório.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.900 1.900 2.200 2.539 2.600 15.500
Variável “residual.suggar”, contínua, com mínimo de 0,9 e máximo de 15,5. Sua distribuição apresenta forte desvio à direita. A transformação logarítimica reduziu o desvio.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.01200 0.07000 0.07900 0.08747 0.09000 0.61100
Variável “chlorides”, contínua, com mínimo de 0,012 e máximo de 0,611. Possui distribuição com forte desvio à direita. A transformação logarítimica tornou a distribuição mais próxima da curva normal.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 7.00 14.00 15.87 21.00 72.00
Variável “free.sulfur.dioxide”, contínua, com mínimo de 1 e máximo de 72. Distribuição com forte desvio à direita. A transformação logarítimica diminuiu o desvio.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 6.00 22.00 38.00 46.47 62.00 289.00
Variável “total.sulfur.dioxide”, contínua, com mínimo de 6 e máximo de 289. Apresenta forte desvio à direita. A transformação logarítimica diminuiu o desvio da distribuição.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9901 0.9956 0.9968 0.9967 0.9978 1.0037
Variável “density”, contínua, com mínimo de 0,9901 e máximo de 1,0037. Apresenta distribuição próxima da curval normal.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.740 3.210 3.310 3.311 3.400 4.010
Variável “pH”, contínua, com mínimo de 2,74 e máximo de 4,01. Apresenta distribuição próxima da curva normal.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3300 0.5500 0.6200 0.6581 0.7300 2.0000
Variável “sulphates”, contínua, com mínimo de 0,33 e máximo de 2. Apresenta distribuição com desvio à direita. A transformação logarítimica diminuiu o desvio.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.40 9.50 10.20 10.42 11.10 14.90
Variável “alcohol”, contínua, com mínimo de 8,4 e máximo de 14,9. Apresenta algum desvio à direita. A transformação logarítimica não apresentou resultado satisfatório.
O data set possui 1.599 vinhos registrados e 13 variáveis, sendo 12 com características dos vinhos e uma de identificação.
As 12 variáveis descritivas são:
[2] “fixed.acidity”
[3] “volatile.acidity”
[4] “citric.acid”
[5] “residual.sugar”
[6] “chlorides”
[7] “free.sulfur.dioxide” [8] “total.sulfur.dioxide” [9] “density”
[10] “pH”
[11] “sulphates”
[12] “alcohol”
[13] “quality”
A variável “quality” é categórica, com níveis de resposta: 3, 4, 5, 6, 7, 8. As demais variáveis são contínuas.
A princípio, os dois principais atibutos são o “pH” do vinho e a sua “quality”. Como pressuposto inicial, acredito que o pH é a principal variável para predizer a qualidade do vinho. Contudo, na próxima seção será tratada a identificação de correlação entre todas as variáveis, de modo que possamos identificar (ou não) outras variáveis que possam contribuir para um futuro modelo preditivo.
É possível que todas as demais varíaveis possam contribuir para a determinação da qualidade do vinho.
Sim. Adotou-se como novas variáveis as transformações logarítimicas que apresentaram sucesso na diminuição dos desvios das distribuições originais. As novas variáveis foram:
[1] fixed.acidity.log [2] volatile.acidity.log [3] residual.suggar.log [4] chlorides.log [5] free.sulfur.dioxide.log [6] total.sulfur.dioxide.log [7] sulphates.log
Foram encontradas distribuições com desvios à direita. Para isso, empregou-se a tranformação por logarítimos com o intuito de se obter uma distribuição sem desvio (mais próxima da curva normal) ou com o menor desvio possível.
## wineQuality$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0050 0.0350 0.1710 0.3275 0.6600
## --------------------------------------------------------
## wineQuality$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0300 0.0900 0.1742 0.2700 1.0000
## --------------------------------------------------------
## wineQuality$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0900 0.2300 0.2437 0.3600 0.7900
## --------------------------------------------------------
## wineQuality$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.0900 0.2600 0.2738 0.4300 0.7800
## --------------------------------------------------------
## wineQuality$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0000 0.3050 0.4000 0.3752 0.4900 0.7600
## --------------------------------------------------------
## wineQuality$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0300 0.3025 0.4200 0.3911 0.5300 0.7200
Vinho de melhor qualidade (nível 7 e 8) possuem valores mais altos para “citric.acid”
## wineQuality$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9947 0.9961 0.9976 0.9975 0.9988 1.0008
## --------------------------------------------------------
## wineQuality$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9934 0.9957 0.9965 0.9965 0.9974 1.0010
## --------------------------------------------------------
## wineQuality$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9926 0.9962 0.9970 0.9971 0.9979 1.0031
## --------------------------------------------------------
## wineQuality$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9901 0.9954 0.9966 0.9966 0.9979 1.0037
## --------------------------------------------------------
## wineQuality$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9906 0.9948 0.9958 0.9961 0.9974 1.0032
## --------------------------------------------------------
## wineQuality$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.9908 0.9942 0.9949 0.9952 0.9972 0.9988
Vinhos de melhor qualidade possuem valores de “desity” menores
## wineQuality$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.160 3.312 3.390 3.398 3.495 3.630
## --------------------------------------------------------
## wineQuality$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.740 3.300 3.370 3.382 3.500 3.900
## --------------------------------------------------------
## wineQuality$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.880 3.200 3.300 3.305 3.400 3.740
## --------------------------------------------------------
## wineQuality$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.860 3.220 3.320 3.318 3.410 4.010
## --------------------------------------------------------
## wineQuality$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.920 3.200 3.280 3.291 3.380 3.780
## --------------------------------------------------------
## wineQuality$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.880 3.163 3.230 3.267 3.350 3.720
Vinhos de melhor qualidade possuem pH com menores valores.
## wineQuality$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.400 9.725 9.925 9.955 10.575 11.000
## --------------------------------------------------------
## wineQuality$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 9.00 9.60 10.00 10.27 11.00 13.10
## --------------------------------------------------------
## wineQuality$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.5 9.4 9.7 9.9 10.2 14.9
## --------------------------------------------------------
## wineQuality$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.40 9.80 10.50 10.63 11.30 14.00
## --------------------------------------------------------
## wineQuality$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 9.20 10.80 11.50 11.47 12.10 14.00
## --------------------------------------------------------
## wineQuality$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 9.80 11.32 12.15 12.09 12.88 14.00
Vinhos de melhor qualidade possuem maiores valores de “alcohol”
## wineQuality$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.902 1.967 2.015 2.105 2.285 2.451
## --------------------------------------------------------
## wineQuality$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.526 1.917 2.015 2.031 2.128 2.526
## --------------------------------------------------------
## wineQuality$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.609 1.960 2.054 2.084 2.186 2.766
## --------------------------------------------------------
## wineQuality$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.548 1.946 2.067 2.100 2.241 2.660
## --------------------------------------------------------
## wineQuality$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.589 2.001 2.175 2.158 2.313 2.747
## --------------------------------------------------------
## wineQuality$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.609 1.981 2.109 2.117 2.325 2.534
A variável “fixed.acidity.log” não apresenta diferença substancial entre as categorias de qualidade de vinho.
## wineQuality$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.820981 -0.439331 -0.169049 -0.184577 0.009801 0.457425
## --------------------------------------------------------
## wineQuality$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -1.4697 -0.6349 -0.4005 -0.4198 -0.1393 0.1222
## --------------------------------------------------------
## wineQuality$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -1.7148 -0.7765 -0.5447 -0.5920 -0.4005 0.2852
## --------------------------------------------------------
## wineQuality$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -1.83258 -0.96758 -0.71335 -0.75351 -0.51083 0.03922
## --------------------------------------------------------
## wineQuality$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -2.12026 -1.20397 -0.99425 -0.96806 -0.72366 -0.08883
## --------------------------------------------------------
## wineQuality$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -1.3471 -1.0940 -0.9946 -0.9051 -0.7519 -0.1625
Os vinhos de melhor qualidade possuem valores menores para “volatile.acidity”
## wineQuality$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1823 0.6263 0.7419 0.8601 1.1149 1.7405
## --------------------------------------------------------
## wineQuality$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.2624 0.6419 0.7419 0.8744 1.0296 2.5572
## --------------------------------------------------------
## wineQuality$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1823 0.6419 0.7885 0.8490 0.9555 2.7408
## --------------------------------------------------------
## wineQuality$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.1054 0.6419 0.7885 0.8296 0.9163 2.7344
## --------------------------------------------------------
## wineQuality$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.1823 0.6931 0.8329 0.9127 1.0114 2.1861
## --------------------------------------------------------
## wineQuality$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.3365 0.5878 0.7408 0.8617 0.9555 1.8563
A variável “residual.sugar.log” não apresenta diferença substancial entre as categorias de qualidade de vinho.
## wineQuality$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -2.797 -2.539 -2.405 -2.211 -1.945 -1.321
## --------------------------------------------------------
## wineQuality$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -3.1011 -2.7031 -2.5257 -2.5127 -2.4191 -0.4943
## --------------------------------------------------------
## wineQuality$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -3.2442 -2.6037 -2.5133 -2.4524 -2.3645 -0.4927
## --------------------------------------------------------
## wineQuality$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -3.3814 -2.6846 -2.5510 -2.5243 -2.4304 -0.8795
## --------------------------------------------------------
## wineQuality$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -4.423 -2.781 -2.617 -2.622 -2.442 -1.027
## --------------------------------------------------------
## wineQuality$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -3.124 -2.781 -2.652 -2.697 -2.584 -2.453
A variável “chlorides.log” não apresenta diferença substancial entre as categorias de qualidade de vinho.
## wineQuality$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.099 1.609 1.792 2.111 2.655 3.526
## --------------------------------------------------------
## wineQuality$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.099 1.792 2.398 2.265 2.708 3.714
## --------------------------------------------------------
## wineQuality$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.099 2.197 2.708 2.621 3.135 4.220
## --------------------------------------------------------
## wineQuality$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 2.079 2.639 2.547 3.045 4.277
## --------------------------------------------------------
## wineQuality$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.099 1.792 2.398 2.407 2.890 3.989
## --------------------------------------------------------
## wineQuality$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.099 1.792 2.013 2.300 2.802 3.738
Os valores mínimos e máximos da variável “free.sulfur.dioxide.log” variam nas classes de qualidade do vinho. Contudo, não é possível identificar valores exclusivos para cada faixa de qualidade. Praticamente nenhuma relação entre as duas variáveis.
## wineQuality$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.197 2.523 2.706 3.011 3.729 3.892
## --------------------------------------------------------
## wineQuality$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.946 2.639 3.258 3.310 3.892 4.779
## --------------------------------------------------------
## wineQuality$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.792 3.258 3.850 3.795 4.431 5.043
## --------------------------------------------------------
## wineQuality$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.792 3.135 3.555 3.529 3.989 5.106
## --------------------------------------------------------
## wineQuality$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.946 2.862 3.296 3.302 3.761 5.666
## --------------------------------------------------------
## wineQuality$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.485 2.773 3.061 3.280 3.758 4.477
Da mesma percepção do anterior, a variável “total.sulfur.dioxide.log” não permite uma diferenciação clara dentre as faixas de qualidade de vinho. Praticamente nenhuma relação entre as duas variáveis.
## wineQuality$quality: 3
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.9163 -0.6685 -0.6070 -0.5808 -0.4871 -0.1508
## --------------------------------------------------------
## wineQuality$quality: 4
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -1.1087 -0.7133 -0.5798 -0.5625 -0.5108 0.6931
## --------------------------------------------------------
## wineQuality$quality: 5
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.9943 -0.6349 -0.5447 -0.5050 -0.4155 0.6831
## --------------------------------------------------------
## wineQuality$quality: 6
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.9163 -0.5447 -0.4463 -0.4148 -0.2877 0.6678
## --------------------------------------------------------
## wineQuality$quality: 7
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.9416 -0.4308 -0.3011 -0.3160 -0.1863 0.3075
## --------------------------------------------------------
## wineQuality$quality: 8
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -0.46204 -0.37106 -0.30111 -0.27396 -0.19845 0.09531
Valores maiores da variável “sulphates.log” indicam relação com as melhores qualidades de vinho.
Dentre as 12 variáveis analisadas, foram encontradas algumas correlações medianas (menor que 0.7) e apenas duas mais fortes (0.71 e 0.78). A principal variável de interesse é “quality”, cujo resultado pode ser influenciado pelas demais variáveis.
Sim. Em dois casos. - A boa correlação entre as duas variáveis “sulfur.dioxide”, com 0.78, já era previsível tendo em vista, pelo nome, terem a mesma origem. - Um segundo caso foi a relação da variável “fixed.acidity.log”, com os resultados de 0.67, 0.67 e -0.71, em relação as variáveis “citric.acid”, “density” e “pH”, respectivamente.
Foi de 0.78 entre “free.sulfur.dioxide.log” e “total.sulfur.dioxide.log”
No gráfico acima nos eixos x e y as variáveis “fixed.acidity.log” e “density”, cuja correlação é de 0.67. É possivel observar a tendência positiva da disposição dos pontos. A variável “quality” foi inserida por meio da cor dos pontos.
O gráfico acima apresenta a relação positiva entre “fixed.acidity.log” e “density”, cuja correlação entre as mesmas é de 0.67. A váriavel “citric.acid” aparece destacando o conjunto, onde seu valores maiores (pontos azuis claros) estão em consonância com os valores maiores das outras duas variáveis (quadrante direito superior).
Observa-se no gráfico acima a relação positiva entre qualidade do vinho e o alcool. Observa-se ainda que a variável “volatile.acidity.log” diminui a medida que a qualidade do vinho aumenta.
Valores maiores de “volatile.acidity.log” estão presentes em vinhos de menor qualidade, juntamente com o acído cítrico.
A pouca correlação entre a maioria das variáveis é um indicativo da baixa relação entre as mesmas desse conjunto. Não se identificou relações muito relevantes entre as variáveis.
As variáveis “fixed.acidity.log”, “density”, “citric.acid” possuem uma boa relação entre si, de forma a se identificar uma “tendência” na dispersão dos pontos. Contudo, não demonstram a mesma relação com a qualidade do vinho.
Não foram encontrados. Na análise dos gráficos com três variáveis, não é possível afirmar que há “interações surpreendentes”. A baixa relação entre as variáveis não permite isso.
Dos 10 níveis de qualidade de classificação dos vinhos, o data set apresenta somente vinhos com notas entre 3 e 8. A maior parte dos vinhos receberam notas 5 e 6.
Vinhos com maiores notas no quesito qualidade indicam maiores níveis de alcool. Contudo, pelo “empareamento” dos boxplots, não é possível afirmar que o teor de álcool seja uma variável discriminante para os níveis de qualidade dos vinhos.
O gráfico apresenta redução da mediana do nível de acidez volátil a medida que a qualidade do vinho aumenta. Contudo, pelo “empareamento” dos boxplots, não é possível afirmar que o nível de acidez seja uma variável discriminante para os níveis de qualidade dos vinhos.
É sabido que dentre as muitas centenas de tipos de vinhos, disponíveis nas prateleiras das lojas, há vinhos dos mais diversos tipos, com qualidades diferentes e preços diferentes. Também é sabido que a qualidade de um vinho é determinada por fatores conhecidos e manipulados pelos produtos, como o tipo da terra, o tipo da uva, índices de acidez etc.
No data set analisado, com 11 variáveis de propriedades químicas do vinho, nesta etapa de análise, verificou-se que há pouca relação entre as variáveis. Não foram encontradas evidências iniciais que possibilitem afirmar que há elementos discriminantes para os níveis de qualidade do vinho que propiciem a formulação de um modelo classificador numa etapa futura. Essa percepção é decorrente das baixas correlações encontradas, ou ainda da pouca diferença apresentada nos gráficos de boxplot e nos de disperção.